主成分分析(Principle Component Analysis, PCA) 利用正交变换, 将线性相关变量转变为少数几个线性无关变量表示的数据, 是一种数据降维方法. 线性无关的变量称为主成分.
1 总体主成分分析
1.1 定义和导出
假设是维随机变量, 均值为
协方差矩阵是
考虑维向量到维向量的线性变换
(.) 则
给定线性变换如 (1.1), 如果它满足:
- 是单位正交向量, 即;
- 互不相关, 即;
- 是所有线性变换中方差最大的; 是与不相关的的所有线性变换中方差最大的; ……; 是线性变换中与都不线性相关的中方差最大的, 此时称分别为的第一主成分, ... , 第主成分.
根据定义, 求解第一主成分就是求解如下优化问题
1.2 主要性质
下面的定理说明了总体主成分与特征值、特征向量的关系, 同时给出了一个求主成分的方法.
有特征值, 对应的单位特征向量分别是, 则的第主成分是
对应的方差是
用 Lagrange 乘子法求出主成分. 根据 (1,2), 定义 Lagrange 函数令因此是的特征值, 是对应的单位特征向量, 目标函数改写为因此, 目标函数最大化意味着最大化, 从而取对应于的最大特征值, 构成第一主成分, 且
接下来求解第二主成分, 等价于优化问题这样
定义 Lagrange 函数令 于是目标函数改写为取的第二大特征值和对应的单位特征向量即可, 从而是第二主成分, 方差为
以此类推, 得到个主成分.
的分量依次是的第一、...、第主成分等价于:
- , 是正交阵;
- 的协方差矩阵为对角阵
其中是的第个特征值, 是对应的单位特征向量.
把用矩阵表示为由的正交性: , 进而
假设总体主成分为. 则
-
- 记是的方差, 而又是的方差, 则
- 定义和的相关系数为因子负荷量, 则
-
-
2. 根据 这里 以及迹的性质, 我们有
3. 定义为基本单位向量, 则从而
4. 由 3,
5. 一方面, 互不相关, 故另一方面, 可以表示为的线性组合, 故
1.3 主成分的个数
尽管主成分可以有个, 但是为了降维, 我们会选, 在简化问题的同时保留大部分信息. 这里的信息指原有变量的方差.
任意上的正整数, 考虑正交变换其中是维向量, 是维矩阵, 令的协方差矩阵为. 则在时取到最大值, 是正交矩阵的前列.